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La presente invention concerne un procede de traduction de donnees d'entree en 
au moins une sequence lexicale de sortie, incluant une etape de decodage des donnees 
d'entree au cours de laquelle des entites lexicales dont lesdites donnees sont 
representatives sont identifies au moyen d'au moins un modele. 
5 De tels precedes sont communement utilises dans des applications de 

reconnaissance de parole, ou au moins un modele est mis en oeuvre pour reconnaitre 
des informations presentes dans les donnees d'entree, une information pouvant etre 
constitute par exemple par un ensemble de vecteurs de parametres d'un espace 
acoustique continu, ou encore par un label attribue a une entite sous-lexicale. 
10 Dans certaines applications, le qualificatif "lexical" s'appliquera a une phrase 

consideree dans son ensemble, en tant que suite de mots, et les entites sous-lexicales 
seront alors des mots, alors que dans d'autres applications, le qualificatif "lexical" 
s'appliquera a un mot, et les entites sous-lexicales seront alors des phonemes ou 
encore des syllabes aptes a former -te v*3.~-. x^ots, si ceux-ci sont de nature litterale/ ouW 

15 des chiffres, si les mots sont de nature numerique, c'est-a-dire des nombres. 

Une premiere approche pour operer une reconnaissance de parole consiste-a 
utiliser un type particulier de module qui presente une topologie reguliere et est 
destine a apprendre toutes les variantes de prononciation de chaque entite lexicale, 
c'est-a-dire par exemple un mot, inclus dans le modele. Selon cette premiere 

20 approche, les parametres d'un ensemble de vecteurs acoustiques propre a chaque 
information qui est presente dans les donnees d'entree et correspond a un mot inconnu 
doivent etre compares a des ensembles de parametres acoustiques correspondant 
chacun a Tun des tres nombreux symboles contenus dans le modele, afin d'identifier 
un symbole modelise auquel correspond le plus vraisemblablement cette information. 

25 Une telle approche garantit en theorie un fort taux de reconnaissance si le modele 
utilise est bien congu, c'est-a-dire quasi-exhaustif, mais une telle quasi-exhaustivite ne 
peut etre obtenue qu'au prix d'un long processus d'apprentissage du modele, qui doit 
assimiler une enorme quantite de donnees representatives de toutes les variantes de 
prononciation de chacun des mots inclus dans ce module. Cet apprentissage est en 

30 principe realise en faisant prononcer par un grand nombre de personnes tous les mots 
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d'un vocabulaire donne, et a enregistrer toutes les variantes de prononciation de ces 
mots. II apparatt clairement que la construction d'un modele lexical quasi-exhaustrf 
n'est pas envisageable en pratique pour des vocabulaires presentant une taille 
superieure a quelques centaines de mots. 

Une deuxieme approche a ete concue dans le but de reduire le temps 
d'apprentissage necessaire aux applications de reconnaissance de parole, reduction qu. 
est essentielle a des applications de traduction sur de tres grands vocabulaires pouvant 
contenir plusieurs centaines de milliers de mots, laquelle deuxieme approche cons,ste 
a operer une decomposition des entites lexicales en les considerant comme des 
assemblages d'entites sous-lexicales, a utiliser un modele sous-lexical modelisant 
lesdites entites sous-lexicales en vue de permettre leur identification dans les donnees 
d'entree, et un modele d' articulation modelisant differentes combinaisons possibles de 

ces entites sous -lexical es. 

Uue approche, decrite par exemple au chapitre 16 du manuel "Automatic,, , 
15 Speech ^ Speaker Recognition" edite par Kluwer Academic Publishers, permet de 
reduire considerablement, par rapport au modele utilise dans le cadre de la premiere 
approche decrite plus haut, les durees individuelles des processus d'apprentissage du 
modele sous-lexical et du modele d' articulation, car chacun de ces modetes presente 
une structure simple par rapport au modele lexical utilise dans la premiere approche. 
20 Les modes de mise en oeuvre connus de cette deuxieme approche font le plus 

souvent appel a un premier et a un deuxieme transducteur, chacun forme par un 
• modele de Markov representatif d'une certaine source de connaissances, c'est-a-dire, 
pour reprendre le cas de figure evoque ci-dessus, un premier modele de Markov 
representatif des entites sous-lexicales et un deuxieme modele de Markov representatif 
25 de combinaisons possibles desdites entites sous-lexicales. Au cours d'une etape de 
decodage de donnees d'entree, des etats contenus dans les premier et deuxieme 
transducteurs, lesquels etats sont respectivement representatifs de moderations 
possibles des entites sous-lexicales a identifier et de moderations possibles de 
combinaisons desdites emites sous-lexicales, seront actives. Le, *at actives des 
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premier et deuxteme transducteurs seront alors memorises dans des moyens de 
memorisation. 

Selon une representation conceptuelle elegante de cette deuxieme approche, les 
premier et deuxieme transducteurs peuvent Stre representes sous la forme d'un 
5 transducteur unique equivalent aux premier et deuxieme transducteurs pris dans leur 
composition, permettant de traduire les donnees d'entree en entites lexicales, en 
exploitant simultan&nent le modele sous-lexical et le modele d' articulation. 

Selon cette representation conceptuelle, la memorisation des etats actives au 
cours de Petape de decodage equivaut a une memorisation d'etats de ce transducteur 
10 unique, dont chaque etat peut etre considere corame un couple forme par un etat du 
premier transducteur forme par le premier modele construit sur la base d'entites sous- 
lexicales, d'une part, et par un etat du deuxieme transducteur forme par le deuxieme 
modele construit sur la base d'entites lexicales, d'autre part. Une telle memorisation 
pourrait etre faite de manure anarchique, au for et a mesure que ces etats seront 
15 produits. Cependant, le nombre maximum d 'etats differents que peut prendre lb 
transducteur unique est tres grand, car il est egal a un produit entre les nombres 
maxima d'etats que peuvent prendre chacun des premier et deuxieme transducteurs. 
Par ailleurs, le nombre d'etats du transducteur unique effectivement utiles pour le 
decodage, c'est-a-dire correspondant effectivement a des sequences sous-lexicales et 
20 lexicales autorisees dans la langue consideree, est relativement faible par rapport au 
nombre maximum d'etats possibles, particulierement si des etats dont Pactivation est 
peu probable, bien que theoriquement autorisee, sont exclus par convention. Ainsi, 
une memorisation anarchique des etats produits par le transducteur unique conduit a 
utiliser une m^moire de taille tres importante, dans laquelle les informations 
25 representatives des etats produits seront tres clairsemees, ce qui conduira a utiliser 
pour leur adressage a des fins de lecture et/ou d'ecriture des nombres de grande taille 
necessitant un systeme de gestion d'acces memoire indument complexe par rapport au 
volume d'informations utiles effectivement contenu dans la memoire, qui induira des 
temps d'acces memoire importants et incompatibles avec des contraintes temporelles 
30 propres par exemple a des applications de traduction en temps reel. 
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V invention a pour but de rem6dier dans une large mesure a cet inconvenient, en 
proposant un procede de traduction de donnees mettant en oeuvre un transducteur 
unique et des moyens de memorisation destines a contenir des informations relatives 
aux etats actives dudit transducteur unique, procede grace auquel des acces en 
5 lecture/ecriture aux dites informations peuvent etre executes suffisamment rapidement 
pour autoriser une utilisation dudit procede dans des applications de traduction en 
temps reel. 

En effet, selon Tinvention, un precede de traduction de donnees d'entree en au 
moins une sequence lexicale de sortie inclut une etape de decodage des donnees 

10 d'entree au cours de laquelle des entites sous-lexicales dont lesdites donnees sont 
representatives sont identifies au moyen d'un premier modele construit sur la base 
d'entites sous-lexicales predetermines, et au cours de laquelle sont generees, au fur et 
a mesure que les entites sous-lexicales sont identifies et en rcf- ^ u^e a au mdins un 
deuxieme modele construit sur la base d'entites lexicales, diverges combiriaisons 

15 possibles desdites entites sous-lexicales, chaque combinaison destined ■*& etre 
memorisee, conjointement avec une valeur de vraisemblance associee, dans des 
moyens de memorisation qui incluent une pluralite de zones memoire dont chacune 
est apte a contenir au moins l'une desdites combinaisons, chaque zone etant munie 
d'une adresse egale a une valeur prise par une fonction scalaire predeterminee lorsque 

20 ladite fonction est appliquee k des parametres propres a des entites sous-lexicales et a 
leur combinaison destinees a etre memorisees ensemble dans la zone consideree. 

L'utilisation de zones memoire adressees au moyen d'une fonction scalaire 
predeterminee permet d'organiser le stockage des informations utiles produites par ce 
transducteur unique et de simplifier la gestion des acces a ces informations puisque, 

25 conformement k Tinvention, la memoire est subdivisee en zones destinees chacune a 
contenir des informations relatives a des etats effectivement produits par le 
transducteur unique. Ceci autorise un adressage desdites zones au moyen d'un nombre 
dont la taille est reduite par rapport a la taille necessaire pour radiessags d'unc 
memoire con?ue pour nicmoriscr de muniere snnrchiquc irimporte quel couple ductals 



Dans un mode de mise en oeuvre avantageux de ['invention, on choisira pour 
fonction scalaire predeterminee une fonction essentiellement injective, c'est-a-dire 
une fonction, qui, appliquee a differents parametres prendra sauf exception des valeurs 
differentes, ce qui permet d'assurer que chaque zone memoire ne contiendra en 
principe que des informations relatives a au plus une seule combinaison d'entites 
sous-lexicales, c'est-a-dire a un seul etat du transducteur equivalent, ce qui permet de 
simplifier encore les acces auxdites informations en supprimant la n^cessite d'un tri, 
au sein d'une meme zone memoire, entre des informations relatives a differentes 
combinaisons d'entites sous-lexicales. 

Dans une variante de ce mode de mise en oeuvre, la fonction scalaire 
predeterminee sera en outre egalement essentiellement surjective en plus d'etre 
injective, c'est-a-dire que chaque zone memoire disponible est destinee a contenir 
effectivement, sauf exception, des informations relatives a une seule combinaison 
d'entit&s sous-lexicales, ce qui repress- utilisation optimale des moyens : df 
memorisation puisque leur potentiel de memorisation sera alors pleinement exploite, 
Dans cette variante, la fonction scalaire predeterminee sera en fait essentiellement 
bijective, en tant qu'a la fois essentiellement injective et surjective. 

Les parametres d'entree de la fonction scalaire predeterminee peuvent revetir de 
multiples formes selon le mode de mise en oeuvre de V invention choisi. Dans Tun de 
ces modes de mise en oeuvre, le modele sous-lexical contient des modeles d'entites 
sous-lexicales dont differents etats sont numerates de fa9on contigue et presentent un 
nombre total inferieur ou egal a un premier nombre predetermine propre au modele 
sous-lexical, et le modele d' articulation contient des modeles de combinaisons 
possibles d'entites sous-lexicales dont differents etats . sont numerates de fa?on 
contigue et presentent un nombre total inferieur ou egal a un deuxieme nombre 
predetermine propre au modele d 'articulation, les numeros des etats des entites sous- 
lexicales et de leurs combinaisons possibles constituant les parametres auxquels la 
fonction scalaire predeterminee est destinee a etre appliquee. 

La fonction scalaire predeterminee peut revetir de multiples formes selon le 
mode de mise en oeuvre de r invention choisi. Dans un mode de mise en oeuvre 
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particulier de P invention, chaque valeur prise par la fonction scalaire predeterminee 
est une concatenation d'un reste d'une premiere division entiere par le premier 
nombre predetermine du num6ro d'un etat d'une entite sous-lexicale identify au 
moyen du premier modele et d'un reste d'une deuxieme division entiere par le 
5 deuxieme nombre predetermine du numero d'un etat d'une combinaison identifie au 
moyen du deuxieme modele. 

Une telle concatenation garantit en principe que les valeurs des restes des 
premiere et deuxieme divisions entieres seront utilisees sans alteration aux fins de 
Padressage des zones m6moire 5 entrainant ainsi une reduction maximale d'un risque 
10 d'erreur dans Padressage. 

Dans un mode de realisation particulierement avantageux de Pinvention, en ce 
qu'il utilise des moyens eprouv6s et individuellement connus de Phomme du metier, 
Petape de dfeodage met en oeuvre un algorithme de Viterbi applique conjointem'ent a 
un premier modele de Markov presentant des etats representatifs de differences 
15 modelisatioria possibles de chaque entite sous-lexicale autorisee dans une langtie de 
traduction donnee, et a un deuxieme modele de Markov presentant des etats 
representatifs de differentes moderations possibles de chaque articulation entre deux 
entites sous-lexical es autorisee dans ladite langue de traduction. 

Sous un aspect general, P invention concerne egalement un precede de 
20 traduction de donnees d' entree en une sequence lexicale de sortie, incluant une etape 
de decodage des donnees d'entree destinee a etre executee au moyen d'un algorithme 
du type algorithme de Viterbi, exploitant simultanement une pluralite de sources de 
connaissances distinctes formant un transducteur unique dont des etats sont destines a 
etre memorises, conjointement avec une valeur de vraisemblance associee, dans des 
25 moyens de memorisation qui incluent une pluralite de zones memoire dont chacune 
est apte k contenir au moins Pun desdits etats, chaque zone etant munie d'une adresse 
egale a une valeur prise par une fonction scalaire predeterminee lorsque ladite 
fonction est appliquee a des parametres propres aux etats dudit transducteur unique. 

L* invention concerne egalement nn systcme de reconnaissance de signaux 
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Les caracteristiques de Tinvention mentionnees ci-dessus, ainsi que d'autres, 
apparaitront plus clairement a la lecture de la description suivante d'un exemple de 
realisation, ladite description etant faite en relation avec les dessins joints, parmi 
lesquels : 

5 La Fig.l est un schema conceptuel decrivant un decodeur dans lequel un 

procede conforme a Finvention est mis en oeuvre, 

La Fig.2 est un schema decrivant Porganisation d'une table destinee a 
memoriser des informations produites par un tel decodeur, 

La Fig.3 est un schema fonctionnel decrivant un systeme de reconnaissance 
10 acoustique conforme a un mode de mise en oeuvre particulier de Pinvention, 

La Fig.4 est un schema fonctionnel decrivant un premier decodeur destine a 
executer au sein de ce systeme une premiere etape de decodage, et - 

La Fig. 5 est un schema fonctionnel decrivant un deuxieme decodeur destine a 
executer au sein de ce systeme une deuxieme 6tape de decodage conforme au procede 
15 selon Pinvention. -< 

La Fig.l represente un decodeur DEC destine a recevoir des donnees d' entree 
AVin et a delivrer une sequence lexicale de sortie LSQ. Ce decodeur DEC inclut une 
machine de Viterbi VM, destinee a executer un algorithme de Viterbi connu de 
Phomme du metier, laquelle machine de Viterbi VM utilise conjointement un premier 
20 modele de Markov APHM representatif de toutes les moderations possibles de 
chaque entite sous-lexicale autorisee dans une langue de traduction donnee, et un 
deuxieme module de Markov PHLM representatif de toutes les moderations 
possibles de chaque articulation entre deux entites sous-lexicales autorisee dans ladite 
langue de traduction, lesquels premier et deuxieme modeles de Markov APHM et 
25 PHLM peuvent respectivement £tre representes sous la forme d'un premier 
transducteur Tl destine a convertir des sequences de vecteurs acoustiques en 
sequences d' entites sous-lexicales Phsq, par exemple des phonemes, et sous la forme 
d'un deuxieme transducteur T2 destine a convertir ces sequences d'entites sous- 
lexicales Phsq en sequences lexicales LSQ, c'est-a-dire dans cet exemple en 
30 sequences de mots. Chaque transducteur Tl ou T2 peut Stre assimile a un automate 
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enrichi a etats finis, chaque etat ei ou ej correspondant respectivement a un etat d'une 
entite sous-lexicale ou a un etat d'une combinaison de telles entrtes identifies par le 
premier ou deuxieme transducer Tl ou T2. Dans une telle representation 
conceptuelle, le decodeur DEC est done un transducteur unique, equivalent a une 
5 composition des premier et deuxieme transducteurs Tl et T2, qui exploite 
simultanement le modele sous-lexical et le modele d' articulation et produit des etats 
(ei;ej) dont chacun est un couple forme par un etat ei du premier transducteur Tl, 
d'une part, et par un etat ej du deuxieme transducteur T2, d'autre part, un etat (ei;ej) 
etant par lui-meme representatif d'une combinaison possible d'entites sous-lexical es. 
10 Conformement a l'invention, chaque etat (ei;ej) est destine a etre memorise, 
conjointement avec une valeur de vraisemblance Sij associee, dans des moyens de 
memorisation, constitues dans cet exemple par une table TAB. 

La Fig.2 represente schematiquement une table TAB, qui inclut une pluralite de 
zones memoire MZ1, MZ2, MZ3...MZN, dont chacune est apte a <x*r,l*xv ^ / 
15 l'un desdits etats (eli;e2j) du transducteur unique, accompagne de la valeur de 
vraisemblance Sij qui lui a ete attribuee. Chaque zone MZ1, MZ2, MZ3...MZN est 
munie d'une adresse egale a une valeur prise par une fonction scalaire h 
predeterminee lorsque ladite fonction est appliquee a des parametres propres a des 
entites sous-lexical es et a leur combinaison destinee a etre memorisee dans la zone 
20 consideree. 

Dans le mode de mise en oeuvre de invention decrit ici, la fonction scalaire h 
est une fonction essentiellement injective, e'est-a-dire une fonction qui, appliquee a 
differents parametres prendra sauf exception des valeurs differentes, ce qui permet 
d' assurer que chaque zone memoire MZm (pour m=l aN) ne contiendra en principe 
25 que des informations relatives a au plus une seule combinaison d'entites sous- 
iexicales, e'est-a-dire a un seul etat (ei;ej) du transducteur forme par le decodeur decrit 
ci-dessus. La fonction scalaire h est en outre egalement essentiellement surjective dans 
cet exemple, c'esl-a-dire que chaque zone memoire MZm (pour m=l a N) est destinee 
a contenir eiTectivemenU sauf excepiion, des informations relatives a un etat (ei;ej) 
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qu'a la fois essentieliement injective et essentiellement surjective. Lorsque le 
transducteur produira un nouvel etat (ex;ey), il suffira, pour savoir si cette 
composition d'etats des premier et deuxieme transducteurs a deja et£ produite, et avec 
quelle vraisemblance, d'interroger la table TAB au moyen de Padresse h[(ex;ey)]. Si 
5 cette adresse correspond a une zone memoire MZm deja d6finie dans la table pour un 
etat (ei;ej), une identite entre le nouvel etat (ex;ey) et Tetat (ei;ej) deja memorise sera 
etablie. 

Dans ce mode de mise en oeuvre, le modele sous-lexical contient differentes 
modelisations possibles ei de chaque entite sous-lexicale, numerotees de fa<?on 

10 contigue et presentant un nombre total inferieur ou egal a un premier nombre 
predetermine VI propre au modele sous-lexical, et le modele d' articulation contient 
differentes modelisations possibles ej de possibles combinaisons de ces entites sous- 
lexicales, numerotees de fa<?on contigue et presentant un nombre total inferieur <ou 
egal a un deuxieme nombre predetermine //. * t v:^r:a au modele d'articulation^ltes ^ 

15 numeros des entites sous-lexicales et de leurs combinaisons possibles constituant. les 
parametres auxquels la fonction scalaire h predexerminee est destinee a etre appliquee. 

Chaque valeur prise par la fonction scalaire predeterminee est une concatenation 
d'un reste, qui peut varier de 0 a (VI -1), d'une premiere division entiere par le 
premier nombre predetermine VI du numero de la modelisation d'un etat d'une entity 

20 sous-lexicale identifie au moyen du premier modele et d'un reste, qui peut varier de 0 
a (V2-1), d'une deuxieme division entiere par le deuxieme nombre predetermine V2 
du numero de la modelisation d'un etat d'une combinaison d'entites sous-lexicales 
identifie au moyen du deuxieme modele. Ainsi, si dans un exemple irrealiste car 
simplifie a l'extreme pour permettre une comprehension aisee de 1'invention, les 

25 entites sous-lexicales modelisees dans le premier modele de Markov sont trois 
phonemes "p", "a" et "o", dont chacun peut etre modelise par cinq etats distincts, 
c'est-&-dire des etats (ei=0, 1, 2, 3 ou 4) pour le phoneme "p", des etats (ei=5, 6, 7, 8 
ou 9) pour le phoneme "a", et des etats (ei=10, 11, 12, 13 ou 14) pour le phoneme "o'\ 
le premier nombre predetermine VI sera 6gal a 5. 
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Si les combinaisons d'entites sous-lexicales modelisees dans le deuxieme 
modele de Markov sont deux combinaisons "pa" et "ptf\ dont chacune peut etre 
modelisee par deux etats distincts, c'est-a-dire des etats (ej=0 ou 1) pour la 
combinaison "pa", et des etats (ej=2 ou 3) pour la combinaison «po", le deuxieme 
5 nombre predetermine sera egal a 4. 

Les differentes moderations possibles des entites sous-lexicales et de leurs 
combinaisons sont au maximum au nombre de N=20, l'adresse h[(0;0)] de la premiere 
zone memoire MZ1 aura pour valeur la concatenation du reste de la division entiere 
0/Vl=0 avec le reste de la division entiere 0/V2=0 soit la concatenation 00 d'une 
10 valeur 0 avec une valeur 0. L'adresse h[(14;3)] de la Neme zone memoire MZN aura 
pour valeur la concatenation du reste de la division entiere de 14 par VI (avec Vl-5) 
avec le reste de la division entiere de 3 par V2 (avec V2=4), soit la concatenation 43 
d'une valeur 4 avec une valeur 3. 

Une telle co^ite.iation garantit en principe que les valeurs des restes»des 
15 premiere et deuxieme divisions entieres seront utilisees sans alteration aux fins de 
l'adressage des zones memoire, entralnant ainsi une reduction maximale d'un risque 
d'erreur dans l'adressage. Cependant, une telle concatenation conduit a utiliser des 
nombres rendus artificiellement plus grands que necessaire par rapport au nombre de 
zones memoire N effectivement adressees. Des techniques, connues de 1'homme du 
20 metier, permettent de comprimer des nombres a concatener en limitant les pertes 
d'information liees a une telle compression. On pourra par exemple prevoir de faire se 
chevaucher des representations binaires desdits nombres, en realisant une operation 
OU-EXCLUSIF entre des bits de poids faible de Tun de ces nombres binaires avec les 
bits de poids fort de 1' autre nombre binaire. 
25 Afm de faciliter sa comprehension, la description de l'invention qui precede a 

ete faite dans un exemple d'application ou une machine de Viterbi opere sur un 
transducteur unique forme par une composition de deux modeles de Markov. Cette 
description est generalisable a des applications ou une unique machine dc Viterbi 
ov.pioite r.imultancment un nombie P fAipc-rieur a 2 dc sources d. connaissance. 
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(eli;e2j;...;ePs), chacun desquels pouvant etre memorise dans une zone memoire 
d'une table, laquelle zone memoire sera identifiee au moyen d'une adresse 
h[(eli;e2j;...;ePs)] ou h est une fonction scalaire predetermined telle que decrite plus 
haut. 

5 La Fig.3 represente schematiquement un systeme SYST de reconnaissance 

acoustique selon un mode de mise en oeuvre particuHer de 1' invention, destine a 
traduire un signal acoustique d'entree ASin en une sequence lexicale de sortie 
OUTSQ. Dans cet exemple, le signal d'entree ASin est constitue par un signal 
electronique analogique, qui pourra provenir par exemple d'un microphone non 

10 represente sur la figure. Dans le mode de realisation decrit ici, le systeme SYST inclut 
un etage d'entree FE, contenant un dispositif de conversion analogique/numerique 
ADC, destine a fournir un signal numerique ASin(l :n), forme d'echantillons ASin(l), 
ASin(2)...ASin(n) codes chacun sur b bits, et representatif du signal acoustique 
d'entree ASin, et un module d'echantillonnage SA destine a convertir le signal 

15 acoustique numerise ASin(l :n) en une sequence de vecteurs acoustiques AVin, 
chaque vecteur etant muni de composantes AVI, AV2... AVr ou r est la dimension 
d'un espace acoustique defini pour une application donnee a laquelle le systeme de 
traduction SYST est destine, chacune des composantes AVi (pour i=l a r) etant 
evaluee en fonction de caracteristiques propres a cet espace acoustique. Dans d'autres 

20 modes de mise en oeuvre de 1' invention, le signal d'entree ASin pourra, des l'origine, 
6tre de nature numerique, ce qui permettra de s'affranchir de la presence du dispositif 
de conversion analogique/numerique ADC au sein de I'etage d'entree FE. 

Le systeme SYST inclut en outre un premier decodeur DEC1, destine a fournir 
une selection Intl, Int2...IntK d' interpretations possibles de la sequence de vecteurs 

25 acoustiques AVin en reference a un modele APHM construit sur la base d'entites 
sous-lexicales predeterminees. 

Le systeme SYST inclut de plus un deuxieme decodeur DEC2 dans lequel un 
procede de traduction conforme a l'invention est mis en oeuvre en vue d'analyser des 
domiees d'entree constituees par les vecteurs acoustiques AVin en reference a un 

30 premier modele construit sur la base d'entites sous-lexicales predeterminees, par 
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exeraple extrait du modele APHM, et en reference a un deuxieme modele construit sur 
la base de moderations acoustiques provenant d'une bibliotheque BIB. Le deuxieme 
decodeur DEC2 identifiera ainsi celle desdites interpretations Intl, Int2...IntK qui 
devra constituer la sequence lexicale de sortie OUTSQ. 
5 La fig.4 represente plus en detail le premier decodeur DEC1, qui inclut une 

premiere machine de Viterbi VM1, destinee a executer une premiere sous-etape de 
decodage de la sequence de vecteurs acoustiques AVin representative du signal 
acoustique d'entree et prealablement gener6e par Tetage d'entree FE, laquelle 
s6quence sera en outre avantageusement memorisee dans une unite de stockage 
10 MEM1 pour des raisons qui apparaitront dans la suite de 1' expose. La premiere sous- 
etape de decodage est operee en reference a un modele de Markov APMM autorisant 
en boucle toutes les entites sous-lexicales, de preference tous les phonemes de la 
langue dans laquelle le signal acoustique d'entee doit etretraduit si l'on consider? ^ue 
les entites lexicales sont des mots, les entites sous-lexicales etant represeiwi^>-5» 
15 forme de vecteurs acoustiques predetermines. 

La premiere machine de Viterbi VM1 est apte a restituer une sequence de 
phonemes Phsq qui constitue la plus proche traduction phonetique de la sequence de 
vecteurs acoustiques AVin. Les traitements ulterieurs realises par le premier decodeur 
DEC1 se feront ainsi au niveau phonetique, et non plus au niveau vectoriel, ce qui 
20 reduit considerablement la complexite desdits traitements, chaque vecteur etant une 
entite multidimensionnelle presentant r composantes, tandis qu'un phoneme peut en 
principe etre identifie par un label unidimensionnel qui lui est propre, comme par 
exemple un label "OU" attribue k une voyelle orale "u", ou un label "CH" attribue a 
une consonne frictive non-voisee "J". La sequence de phonemes Phsq generee par la 
25 premiere machine de Viterbi VM1 est ainsi constituee d'une succession de labels plus 
aisement manipulables que ne le seraient des vecteurs acoustiques. 

Le premier decodeur DEC1 inclut une deuxieme machine de Viterbi VM2 
destinee a executer une deuxieme sous-etape de decodage de la sequence de phonemes 
Phsq generee par la premiere machine de Viterbi VMI Cctte deuxieme etape de 
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transcriptions sous-lexicales d'entites lexicales, c'est-a-dire dans cet exemple de 
transcriptions phonetiques de mots presents dans le vocabulaire de la langue dans 
laquelle le signal acoustique d'entree doit etre traduit. La deuxieme machine de 
Viterbi est destinee a interpreter la sequence de phonemes Phsq, qui est fortement 
5 bruitee du fait que le modele APMM utilise par la premiere machine de Viterbi VM1 
est d'une grande simplicity et met en oeuvre des predictions et des comparaisons entre 
des suites de labels de phonemes contenus dans la sequence de phonemes Phsq et 
diverses combinaisons possibles de labels de phonemes prevues dans le modele de 
Markov PLMM. Bien qu'une machine de Viterbi ne restitue usuellement que celle des 
* 10 sequences qui presente la plus grande probabilite, la deuxieme machine de Viterbi 
VM2 mise en oeuvre ici restituera avantageusement toutes les sequences de phonemes 
lsql, lsq2...1sqN que ladite deuxieme machine VM2 aura pu reconstituer, avec des 
valeurs de probabilite associees pi, p2...pN qui auront ete calculees pour lesdites 
sequences et seront representatives de la fi?£&:to interpretations dvfWsijgnal ~* 

15 acoustique que ces sequences representent. 

Toutes les interpretations possibles lsql, lsq2...1sqN etant . rendues 
automatiquement disponibles a Tissue de la deuxieme sous-etape de decodage, une 
selection operee par un module de selection SM des K interpretations Intl, Int2. . .IntK 
qui presentent les plus fortes valeurs de probabilite est aisee quelle que soit la valeur 

20 de K qui aura ete choisie. 

Les modeles de Markov APMM et PLMM peuvent etre consideres comme des 
sous-ensembles du modele APHM evoque plus haut. 

Les premiere et deuxieme machines de Viterbi VM1 et VM2 peuvent 
fonctionner en parallele, la premiere machine de Viterbi VM1 generant alors au fur et 

25 k mesure des labels de phonemes qui seront immediatement pris en compte par la 
deuxieme machine de Viterbi VM2, ce qui permet de reduire le delai total per9u par 
un utilisateur du systeme necessaire a la combinaison des premiere et deuxieme sous- 
etapes de decodage en autorisant la mise en oeuvre de Fensemble des ressources de 
calcul necessaires au fonctionnement du premier decodeur DEC1 des que les vecteurs 

30 acoustiques AVin representatifs du signal acoustique d'entree apparaissent, et non pas 
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apres qu'ils aient ete entierement traduits en une sequence complete de phonemes 
Phsq par la premiere machine de Viterbi VM1 . 

La Fig.5 represente plus en detail un deuxieme decodeur DEC2 conforme a un 
mode de realisation particulier de 1' invention. Ce deuxieme decodeur DEC2 inclut une 
troisieme machine de Viterbi VM3 destinee a analyser la sequence de vecteurs 
acoustiques AVin representative du signal acoustique d'entree qui a ete prealablement 
memorisee a cet effet dans 1 'unite de stockage MEM1 . 

A cet effet, la troisieme. machine de Viterbi VM3 est destinee a identifier les 
entites sous-lexicales dont les vecteurs acoustiques AVin sont representatifs au moyen 
d'un premier modele construit sur la base d'entites sous-lexicales predeterminees, 
dans cet exemple le modele de Markov APMM mis en oeuvre dans le premier 
decodeur et deja ddcrit plus haut, et a produire des etats eli representatifs des entites 
sous-lexicales ainsi identifiers. Une telle exploitation du modele de Markov APMM 
peut etre representee ct^ac une raise en oeuvre d'un premier transducteur*Tl 
15 semblable a celui decrit phis haut. 

La troisieme machine de Viterbi VM3 genere en outre, au fur et a mesure que 
des entites sous-lexicales sont identifies et en reference a au moins un modele de 
Markov specifique PHLM construit sur la base d'entites lexicales, diverses 
combinaisons possibles des entites sous-lexicales, et a produire des etats e2j 
20 representatifs des combinaisons entites sous-lexicales ainsi generees, la combinaison 
la plus vraisemblable etant destinee a former la sequence lexicale de sortie OUTSQ. 
Une telle exploitation du modele de Markov PHLM peut etre representee comme une 
mise en oeuvre d'un deuxieme transducteur T2 semblable a celui decrit plus haut. 

L'exploitation simultanee des modeles de Markov APMM et PHLM par la 
25 troisieme machine de Viterbi VM3 peut done etre apprehendee comme l'utilisation 
d'un transducteur unique forme par une composition des premier et deuxieme 
transducleurs tels ceux decrits plus haut, destine a produire des etats (ei;ej) munis 
chacun d'une valeur de vraisemblance Sij. Confonuement a la description de 
('invention qui precede, ces eials t.>eroivir memorises dans unc table TAB include dv.m 
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d'une memoire cache incluant egalement 1 'unite de stockage MEM1, chaque etat 
(ei;ej) etant stocke avec sa valeur de vraisemblance associee Sij dans une zone 
memoire ayant pour adresse une valeur h[(ei;ej)], avec les avantages en termes de 
rapidite d' acces precedemment evoques. Un decodeur de memoire MDEC 

5 seiectionnera a Tissue du processus de decodage celle des combinaisons d'entites 
sous-Iexicales memorisees dans la table TAB qui presentera la plus grande 
vraisemblance, c'est-a-dire la plus grande valeur de Sij, destinee a former la sequence 
lexicale de sortie OUTSQ. 

Le modele de Markov specifique PHLM est ici specialement genere par un 

10 module de creation de modele MGEN, et est uniquement representatif d' assemblages 
possibles de phonemes au sein des sequences de mots formees par les . diverses 
interpretations phonetiques Intl, Int2,...IntK du signal acoustique d'entree :delivrees 
nar le premier decodeur, lesquels assemblages sont representes par des mod&isations 
y,w.siiques provenant d'une bibliotlieque BIB des entites lexicales qui correspondent: 

i.5 k ces interpretations. Le modele de Markov specifique PHLM presente done une taille 
restreinte du fait de sa specificite. 

De la sorte, les acces aux unites de stockage MEM1 et MEM2, ainsi qu'au 
differents modeles de Markov utilises dans l'exemple de mise enceuvre de Tinvention 
decrit ci-dessus necessitent une gestion peu complexe, du fait de la simplicite de 

20 structure desdits modeles et du systeme d'adressage des informations destinees a etre 
memorisees et lues dans lesdites unites de stockage. Ces acces memoire peuvent done 
etre executes suffisamment rapidement pour rendre le systeme d6crit dans cet exemple 
apte a accomplir des traductions en temps reel de donnees d'entree en sequences 
lexicales de sortie. 

25 Bien que l'invention ait ete decrite ici dans le cadre d'une application au sein 

d'un systeme incluant deux decodeurs disposes en cascade, il est tout-a-fait 
envisageable, dans d'autres modes de mise en oeuvre de l'invention, de n'utiliser 
qu'un unique decodeur semblable au deuxieme decodeur decrit plus haut, qui pourra 
par exemple operer une analyse acoustico-phonetique et memoriser, au fur et a mesure 

30 que des phonemes seront identifies, diverses combinaisons possibles desdits 
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phonemes, la combinaison de phonemes la plus vraisemblable etant destinee a former 
la sequence lexicale de sortie. 
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REVENDICATIONS . 

1) Procede de traduction de donnees d'entree en au moins une sequence lexicale 
de sortie, incluant une etape de decodage des donnees d'entree au cours de laquelle 
des entites sous-lexicales dont lesdites donnees sont representatives sont identifies au 
moyen d'un premier modele construit sur la base d'entites sous-lexicales 
5 predeterminees, et au cours de laquelle sont generSes, au fur et a mesure que les 
entites sous-lexicales sont identifies et en reference k au moins un deuxieme module 
construit sur la base d'entites lexicales, diverses combinaisons possibles desdites 
entites sous-lexicales, chaque combinaison etant destinee a etre memorisee, 
conjointement avec une valeur de vraisemblance associee, dans des moyens de 

10 memorisation qui incluent une pluralite de zones memoire dont chacune est apte a 
contenir au moins Tune desdites combinaisons, chacwie £one etant munie?fd'une 
adresse egale a une valeur prise par une fonction scal&ire pi tdeterminee lorsque ladite' 
fonction est appliquee a des parametres propres a de .■; ^tivk sous-lexicales eta leur 
combinaison destinees a etre memorisees ensemble dans la zone consideree. 

15 2) Procede de traduction selon la revendication 1, dans lequel la fonction 

scaiaire predeterminee est une fonction essentiellement injective. 

3) Procede de traduction selon la revendication 2, dans lequel la fonction 
scaiaire predeterminee est en outre egalement essentiellement surjective. 

4) Procede de traduction selon la revendication 1, dans lequel le modele sous- 
20 lexical contient des modeles d'entites sous-lexicales dont differents etats sont 

numerotes de fa9on contigue et presentent un nombre total inferieur ou egal a un 
premier nombre predetermine propre au modele sous-lexical, et dans lequel le modele 
d'articulation contient des modeles de combinaisons possibles d'entites sous-lexicales 
dont differents etats sont numerotes de fa?on contigue et presentent un nombre total 
25 inferieur ou egal a un deuxieme nombre predetermine propre au modele d'articulation, 
les numeros des etats des entites sous-lexicales et de leurs combinaisons possibles 
constituant les parametres auxquels la fonction scaiaire predeterminee est destinee a 
etre appliquee. 
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5) Precede de traduction selon la revendication 4, dans lequel chaque valeur 
prise par la fonction scalaire predeterminee est une concatenation d'un reste d'une 
premiere division entiere par le premier nombre predetermine du numero d'un etat 
d'une entite sous-lexicale identifie au moyen du premier modele et d'un reste d'une 
deuxieme division entiere par le deuxieme nombre predetermine du numero d'un etat 
d'une combinaison identifie au moyen du deuxieme modele. 

6) Procede de traduction selon l'une des revendications 1 a 5, selon lequel 
l'etape de decodage met en oeuvre un algorithme de Viterbi applique conjointement a 
un premier modele de Markov pr6sentant des etats representatifs de differentes 
modelisations possibles de chaque entite sous-lexicale autorisee dans une langue de 
traduction donnee, et a un deuxieme modele de Markov presentant des etats 
representatifs de differentes modelisations possibles de chaque articulation entre deux 
entites sous-lexicales autorisee dans ladite langue de traduction. 

7) Procede de tradu^i ;- i: coanees d'entree en une sequence lexicale de sortie, 
incluant une etape de decodase des donnees d'entree destinee a etre executee au 
moyen d'un algorithme du type algorithme de Viterbi, exploitant simultanement une 
pluralite de sources de connaissances distinctes formant un transducteur unique dont 
des etats sont destines a etre memorises, conjointement avec une valeur de 
vraisemblance associee, dans des moyens de memorisation qui incluent une pluralite 
de zones memoire dont chacune est apte a contenir au moins l'un desdits etats, chaque 
zone etant munie d'une adresse egale a une valeur prise par une fonction scalaire 
predeterminee lorsque ladite fonction est appliquee a des parametres propres aux etats 
dudit transducteur unique. 

8) Systeme de reconnaissance vocale mettant en oeuvre un procede de traduction 
conforme a l'une des revendications 1 a 7. 
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